iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 7
0
Google Developers Machine Learning

Google'sMachineLearning-挑戰機器智慧極限系列 第 7

[Day07]資料的流動,以及訓練與預測處理的差別

  • 分享至 

  • xImage
  •  

這篇其實又再推坑GCP啦!主要會講到DataFlow和一些TensorFlow耶~。
↓↓↓↓↓正文↓↓↓↓↓


Stream Data 以及 Batch Data

串流資料(Stream Data)和批量資料(Batch Data),是啥密碗糕?
串流資料我們可以間單的理解成一連串的資料,而這一連串的資料來源,在機器學習產品應用裡指的通常
就是使用者反饋的部分,一個產品通常會有大量的使用者,而大量的使用者反饋就成了連續性的資料(Stream Data)
而批量資料通常指的是歷史的資料,這種資料通常被存放在資料庫~ 下圖可以看到我們在訓練ML model時,
兩種資料都會用到,而創造出完美的資料流也是我們在訓練ML的重要環節。
https://ithelp.ithome.com.tw/upload/images/20190908/20120163ThqfqK1237.png
我們當然可以選擇匯集Stream Data 以及 Batch Data進去餵給 Model 吃,不過重要的一點,
我們在處理這兩種資料的方式一樣嗎?這件事情有點嚴肅,我們都知道ML model based on Data
也就是說我們如果拿到Stream Data 和 Batch Data之後處理的方式不一樣,我們可能會使我們的Model
學歪,所以這是一個重要的問題。
https://ithelp.ithome.com.tw/upload/images/20190910/201201631KPblBsIh7.png

Cloud DataFlow

Cloud DataFlow 是GCP上一個用於處理Stream Data 以及 Batch Data的一個服務,
而它完全在GCP上運行,透過Cloud DataFlow 我們可以放心的把Stream Data 和 Batch Data,
餵給Cloud DataFlow ,在經過Cloud DataFlow處理完資料後,Cloud DataFlow 處理資料時會對
Stream Data 和 Batch Data有不同的處理流程,這樣輸出的資料直接餵給ML model,
就可以訓練出完美的Model啦~
https://ithelp.ithome.com.tw/upload/images/20190910/201201639c0fh6g6hJ.png
以上是Data在GCP上的流動方式,以及Cloud DataFlow。

-我是Dim _ 第七天晚安


上一篇
[Day06]一切都是數據!
下一篇
[Day08]Machine Learning 10 大陷阱[上]
系列文
Google'sMachineLearning-挑戰機器智慧極限30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言